序 


到 这 里 ， 终 于 可 以 松 一 口气 了 ， 一 个 持续 多 年 的 工作 总 算 可 以 告 一 段落 了 。 本 系列 起 源 于 我 2012 年 想 写 的 《并 行 乱 弹 》 一 
书 , 乱弹 是 乱弹 琴 的 意思 。 按 我 的 本 意 ， 并 不 想 把 它 写成 一 本 非常 严谨 的 著作 ， 当 时 更 无 意 出 版 ， 因 此 并 不 是 非常 注意 全 书 逻 辑 
的 严密 性 ， 虽然 经 过 我 和 编辑 的 多 次 修改 ， 但 想必 问题 依旧 难以 避免 ， 在 此 减 尽 地 请 求 读 者 谅解 。 


本 系列 的 3 本 书 相 互 之 间 有 联系 ， 也 有 其 独立 性 : 《并 行 算法 设计 与 性 能 优化 》 介 绍 常见 的 串 行 代码 优化 方法 和 并 行 算法 的 
设计 ; 《并 行 编程 方法 与 优化 实践 》 介 绍 常 见 的 向 量化 和 并 行 编程 环境 及 一 些 实例 ; 《科学 计算 与 企业 级 应 用 的 并 行 优化 》 则 介 
绍 领域 相关 的 算法 与 应 用 的 性 能 优化 。 

如 果 说 要 写 一 本 简短 的 武侠 小 说 来 描写 主角 是 如 何 学 习 这 3 本 “秘笈 ”的 话 ， 我 想 故事 是 这 样 的 : 在 2015 年 ， 主 角 是 某 位 内 
向 宅男 码 农 hpc， 因 为 程序 速度 太 慢 天 天 被 产品 经 理 别 ， 受 项 目 经 理 白 眼 ， 每 天 工作 到 晚上 10 点 ， 遭 到 家 人 埋怨 。 在 某 个 月 黑 风 
高 的 晚上 ， 某 条 街道 上 那 位 江湖 人 称 “ 风 辰 ” 的 “HPC 帮 ”护法 长 老 收 hpc 为 不 记名 弟子 ， 并 传授 给 hpc《 并 行 算法 设计 与 性 能 
优化 》《 并 行 编程 方法 与 优化 实践 》 及 《科学 计算 与 企业 级 应 用 的 并 行 优化 》3 本 “秘笈 ”，“ 风 辰 ” 临 走时 收 了 传 功 费 用 1024 
万 元 。hpc 如 获 至 宝 ， 休 假 一 月 潜心 修炼 。 一 月 后 出 天 ， 容 光 焕 发 ， 程 序 速 度 大 幅度 提升 ， 产 品 经 理 天 天 请 吃 大 餐 ， 项 目 经 理 忙 
着 加 项 目 奖金 。 此 后 ，hpc 每 天 下 午 5 点 即 下 班 回 家 ， 修 身 养性 ， 陪 家 人 一 起 吃饭 、 购 物 。 

愿 这 3 本 书 能 够 真正 成 为 改变 读者 生活 的 良师益友 ! 

风 搬 


2015 年 5 月 17 日 于 深圳 


ul 
中 


IT 行业 急需 这 本 书 
和 本 系列 的 前 两 本 书 一 样 ， 在 解释 为 什么 笔者 认为 软件 工程 师 需要 这 本 书 之 前 ， 笔 者 先 来 介绍 并 行 、 并 发 和 代码 性 能 优化 这 
3 个 概念 ， 因 为 理解 这 3 个 概念 是 阅读 本 系列 3 本 书 的 基础 。 


.并行 对 应 的 英文 单词 是 patallelism， 有 是 指 在 具有 多 个 处 理 单元 的 系统 上 ， 通 过 将 计算 或 数据 划分 为 多 个 部 分 ， 将 各 个 部 分 


分 配 到 不 同 的 处 理 单元 上 ， 各 处 理 单元 相互 协作 ， 同 时 运行 ， 以 达到 加 快 求解 速度 或 者 提高 求解 问题 规模 的 目的 。 


. 并 发 对 应 的 英文 单词 是 concuttenhcy， 是 指 在 一 个 处 理 单元 上 运行 多 个 应 用 ， 各 应 用 分 时 占用 处 理 单 元 ， 是 一 种 微观 上 串 
行 、 宏 观 上 并 行 的 模式 ， 有 时 也 称 其 为 时 间 上 串 行 、 空 间 上 并 行 。 


* 代码 性 能 优化 是 指 通 过 调整 源 代码 ， 使 得 其 生成 的 机 器 指令 能 够 更 高 效 地 执行 ， 通 常 高 效 是 指 执 行 时 间 更 少 、 使 用 的 存储 


器 更 少 或 能 够 计算 更 大 规模 的 问题 。 


从 大 的 方面 来 说 ， 并 行 和 并 发 都 是 代码 性 能 优化 的 一 种 方式 ， 但 是 今天 并 行 和 并 发 已 经 是 如 此 重要 ， 以 至 于 需要 “ 开 宗 立 


派 ”。 为 了 明晰 并 行 、 并 发 和 代码 性 能 优化 的 边界 ， 在 本 书 中 ， 代 码 性 能 优化 特 指 除了 并 行 和 并 发 以 外 的 代码 优化 方法 ， 比 如 向 
量化 和 提高 指令 流水 线 效率 。 在 本 书 中 ， 笔 者 将 向 量化 独立 出 来 解说 。 


2003 年 以 前 ， 在 摩尔 定律 的 作用 下 ， 单 核 标 量 处 理 器 的 性 能 持续 提升 ， 软 件 开发 人 员 只 需要 写 好 软件 ， 而 性 能 的 提升 就 等 
待 下 次 硬件 更 新 来 解决 ， 在 2003 年 之 前 的 几 十 年 里 ， 这 种 “免费 午餐 ”模式 一 直 在 持续 。2003 年 后 ， 主 要 由 于 功 耗 的 原因 ， 这 
种 “免费 午餐 ”已 经 不 复 存 在 。 为 了 生存 ， 各 硬件 生产 商 不 得 不 采用 各 种 方式 提高 硬件 的 计算 能 力 。 目 前 最 流行 的 3 种 方式 如 
下 : 


1) 让 处 理 器 在 一 个 周期 处 理 多 条 指令 ， 多 条 指令 可 相同 可 不 同 。 如 Intel Haswell 处 理 器 一 个 周期 可 执行 4 条 整数 加 法 指 
令 、 两 条 浮 点 乘 加 指令 ， 而 访 存 和 运算 指令 也 可 同时 执行 。 


2) 使 用 向 量 指令 ， 主 要 是 SIMD 和 VLIW 技 术 。S1IMD 技 术 将 处 理 器 一 次 能 够 处 理 的 数据 位 数 从 字 长 扩大 到 128 或 256 位 ， 也 
就 提升 了 计算 能 力 。 


3) 在 同一 个 芯片 中 集成 多 个 处 理 单元 ， 根 据 集成 方式 的 不 同 ， 相 应 地 称 为 多 核 或 多 路 处 理 器 。 多 核 处 理 器 是 如 此 重要 ， 以 
至 于 现在 即使 是 手机 上 的 嵌入 式 ARM 处 理 器 都 已 经 是 四 核 或 八 核 了 。 


目前 绝 大 部 分 应 用 软件 都 是 串 行 的 ， 因 为 串 行 执行 过 程 符合 人 类 的 思维 习惯 ， 易 于 理解 、 分 析 和 验证 。 由 于 串 行 软件 只 能 在 
多 核 CPU 中 的 一 个 核 上 运行 ， 和 2003 年 以 前 的 CPU 没 有 多 少 区 别 ， 这 意味 着 花 多 核 CPU 的 价钱 买 到 了 单 核 的 性 能 。 通 过 多 核 技 
术 ， 硬 件 生产 商 成 功 地 将 提高 实际 计算 能 力 的 任务 转嫁 给 软件 开发 人 员 ， 而 软件 开发 人 员 没有 选择 ， 只 有 直面 挑战 。 


标量 单 核 的 计算 能 力 没有 办 法 继续 大 幅度 提升 ， 而 应 用 对 硬件 计算 能 力 的 需求 依旧 在 提升 ， 这 是 个 实 实在 在 的 矛盾 。 在 可 见 
的 将 来 ， 要 解决 这 个 矛盾 ， 软 件 开 发 人 员 只 有 代码 性 能 优化 和 并 行 可 以 选择 。 代 码 性 能 优化 并 不 能 利用 多 核 CPU 的 全 部 计算 能 
力 ， 它 也 不 要 求 软件 开发 人 员 掌 握 并 行 开发 技术 ， 另 外 通常 也 无 需 对 软件 架构 做 改动 ， 而 且 串 行 代码 优化 有 时 能 够 获得 非常 好 的 
性 能 (如果 原来 的 代码 写 得 很 差 的 话 ) ， 因 此 相 比 采用 并 行 技术 ， 应 当 优 先 选 择 串 行 代码 性 能 优化 。 一 般 来 说 ， 采 用 并 行 技术 获 
得 的 性 能 加 速 不 超过 核 数 ， 这 是 一 个 非常 大 的 限制 ， 因 为 目前 CPU 硬件 生产 商 最 多 只 能 集成 十 几 、 几 十 个 核 。 


从 2006 年 开始 ， 可 编程 的 GPU 越 来 越 得 到 大 众 的 认可 。GPU 是 图 形 处 理 单 元 (Graphics Processing Unit) 的 简称 ， 最 初 
主要 用 于 图 形 泻 染 。 自 20 世 纪 90 年 代 开 始 ，NVIDIA、AMD (ATl) 等 GPU 生产 商 对 硬件 和 软件 加 以 改进 ，GPU 的 可 编程 能 
不 断 提 高 ，GPGPU (General-purpose computing on graphics processing units) 比 以 前 容易 许多 。 另 外 由 于 GPU 具有 比 
CPU 强大 的 峰值 计算 能 力 ， 近 年 来 引起 了 许多 科研 人 员 和 企业 的 兴趣 。 


近 两 三 年 来 ， 在 互联 网 企业 中 ，GPU 和 并 行 计 算 越 来 越 受 到 重视 。 无 论 是 国外 的 Google、Facebook， 还 是 国内 的 百度 、 
腾讯 、 阿 里 和 360， 都 在 使 用 代码 性 能 优化 、 并 行 计 算 和 GPU 来 完成 以 前 不 能 完成 的 任务 。 


10 年 前 ， 并 行 计算 还 是 实验 室 里 教授 们 的 研究 对 象 ， 而 今天 多 核 处 理 器 和 GPU 的 普及 已 经 使 得 普通 人 就 可 以 研究 它们 。 对 
于 软件 开发 人 员 来 说 ， 如 果 不 掌握 并 行 计算 和 代码 性 能 优化 技术 ， 在 不 久 的 将 来 就 会 被 淘汰 。 


作为 本 系列 的 压轴 之 作 ， 本 书 专注 于 领域 相关 的 算法 和 应 用 的 并 行 与 性 能 优化 。 笔 者 介绍 了 如 何 优化 线性 代数 、 偏 微分 方程 
求解 、 分 子 动力 学 和 机 器 学 习 领 域 的 一 些 重要 算法 。 


如 果 以 武侠 中 的 功夫 来 比喻 的 话 ， 本 系列 的 第 一 本 书 《 并 行 算法 设计 与 性 能 优化 》 专 注 于 理论 基础 和 实践 的 结合 ， 是 “内 
功 ” 和 “ 心 法 ”的 修炼 ， 本 系列 的 第 二 本 书 《 并 行 编程 方法 与 优化 实践 》 专 注 于 程序 设计 语言 的 核心 内 容 的 应 用 ， 是 “招式 ”的 
学 习 ; 而 本 书 则 是 “内 功 心 法 ”和 “招式 ”的 具体 运用 。“ 内 功 心 法 ”好 意味 着 基础 好 、 潜 力 大 ， 以 后 发 展 空间 广泛 ; “ 招 
式 ” 好 则 能 够 通过 “ 奇 招 ”“ 怪 招 ”解决 问题 ;而 只 有 将 “内 功 心 法 ”和 “招式 ”完美 融合 ， 做 到 “心中 无 招 而 手中 有 招 ， 无 招 
胜 有 招 ， 无 招 即 有 招 ”， 才 能 成 为 异 构 并 行 计算 这 个 领域 真正 的 集大成 者 。 愿 读者 和 笔者 一 起 向 这 个 目标 前 进 。 


本 书 完全 是 “干货 ” ， 是 一 本 真正 将 业界 最 佳 实践 和 “只 可 意 会 ， 不 可 言传 ”的 领域 知识 简洁 明了 地 贡献 出 来 的 著作 。 为 了 
帮助 读者 理解 ， 本 书 使 用 了 大 量 的 示例 。 开 发 人 员 通 常 比较 忙 ， 因 此 本 书 力求 简洁 明了 ， 点 到 为 止 。 


读者 对 象 


由 于 多 核 处 理 器 和 GPU 已 经 非常 便宜 ， 而 代码 性 能 优化 、 向 量化 和 并 行 已 经 深入 IT 行业 的 骨髓 ， 所 有 IT 行业 的 从 业者 都 应 当 
阅读 本 书 。 如 果 非 要 列 一 个 读者 清单 ， 笔 者 认为 下 列 人 员 应 当 阅 读本 书 : 


. 互联 网 及 传统 行业 的 IT 从 业者 ， 尤 其 是 希望 将 应 用 移植 到 多 核 向 量 处 理 器 的 软件 开发 人 员 ; 
. 对 向 量化 和 并 行 化 感 兴趣 的 职业 工作 者 ; 

:线性 代数 、 偏 微分 方程 、 分 子 动力 学 和 机 器 学 习 相关 领域 的 科技 工作 者 ; 

大 中 专 院 校 及 研究 所 的 学 生 、 教 师 ; 


` 关注 异 构 并 行 计 算 和 高 性 能 计算 的 人 们 。 


如 何 阅读 本 书 
本 系列 包括 3 本 书 ， 本 书 是 此 系列 的 第 三 本 。 本 书 重 点 介绍 如 何 利用 目前 主流 的 C 语 言 的 各 种 特定 硬件 或 平台 的 向 量化 扩 


展 、 并 行 化 库 ， 来 设计 性 能 优良 的 向 量化 和 并 行 代码 。 而 本 系列 的 第 一 本 《并 行 算法 设计 与 代码 优化 》 关 注 并 行 优 化 和 并 行 计算 
相关 的 理论 、 算 法 设计 及 高 层次 的 实践 经 验 ; 本 系列 第 二 本 《并 行 编程 方法 与 优化 实践 》 关 注 C 程 序 设计 语言 的 向 量化 和 并 行 化 
扩展 及 算法 到 硬件 的 映射 ;本 书 则 关注 如 何 将 线性 代数 、 偏 微分 方程 求解 、 分 子 动力 学 和 机 器 学 习 领 域 的 常见 算法 优良 地 实现 出 


本 书 不 但 包括 如 何 使 用 SSE/AVX 向 量化 扩展 、OpenMP 编 译 制导 语句 来 优化 运行 在 X86 多 核 处 理 器 上 的 代码 性 能 ， 还 包括 
使 用 NEON 向 量化 扩展 、OpenMP 编 译 制导 语句 优化 运行 在 移动 处 理 器 (ARM) 的 代码 性 能 ， 以 及 使 用 CUDA 和 OpenCL 优 化 
运行 在 图 形 处 理 器 (GPU) 的 代码 性 能 。 笔 者 希望 通过 这 种 方式 能 够 让 阅读 本 书 的 软件 开发 人 员 了 解 和 掌握 如 何 将 常见 算法 映 
射 到 具体 硬件 上 以 获得 高 性 能 ， 以 及 如 何 依据 硬件 和 算法 的 特点 进行 代码 性 能 优化 。 


本 书 分 为 以 下 几 章 : 


第 1 章 ”介绍 常见 的 并 行 编程 基于 的 多 核 / 众 核 向 量 处 理 器 的 架构 、OpenCL 程 序 如 何 映射 到 这 些 平台 上 执行 及 OpenCL 程 序 
在 这 些 硬件 上 运行 时 具有 哪些 不 同 。 先 介绍 Intel Haswell、ARM A15、Intel MIC、AMD GCN GPU 和 NVIDIA 
Kepler/Maxwell GPU 的 架构 。 然 后 介绍 OpenCL 程 序 如 何 映射 到 Intel Haswell 处 理 器 、AMD GCN GPU 和 NVIDIA 
Kepler/Maxwell GPU 上 执行 。 最 后 介绍 OpenCL 程 序 在 这 些 处 理 器 上 运行 时 的 细微 区 别 。 


第 2 章 ”介绍 如 何在 X86、ARM 和 和 GPU 上 优化 常见 的 线性 代数 运算 ， 如 计算 稀疏 和 矩 阵 向 量 乘法 ， 求 解 下 三 角 线 性 方程 组 ， 计 
算 和 矩 阵 乘 法 等 。 对 于 电子 电路 模拟 、 计 算 流 体力 学 相关 的 领域 来 说 ， 稀 踊 矩 阵 向 量 乘法 是 非常 重要 的 。 本 章 还 介绍 如 何在 主流 的 
X86、ARM 和 NVIDIA GPU 上 优化 稀疏 和 矩阵 向 量 乘 法 运算 。 


第 3 章 ”介绍 如 何在 X86 和 GPU 处 理 器 上 优化 偏 微分 方程 的 求解 ， 主 要 介绍 如 何 求解 热 传 递 问题 和 三 维 Stencil 问 题 。 


第 4 章 ”介绍 如 何在 X86 处 理 器 和 GPU 上 优化 常见 的 分 子 动力 学 算法 ， 如 邻居 搜索 、 范 德 华 力 计 算 、 键 长 伸缩 力 计算 和 径 向 
分 布 函 数 计 算 。 


第 5 章 ”介绍 如 何在 x86、ARM 和 GPU 上 优化 常见 的 机 器 学 习 算 法 ， 如 k-means、KNN、 二 维 卷 积 和 四 维 卷 积 的 计算 性 
能 。 最 后 介绍 多 GPU 并 行 卷 积 神经 网 络 的 常见 方法 ， 以 及 如 何 使 用 数据 并 行 来 使 用 多 GPU 并 行 优化 Caffe。 


对 于 对 并 行 和 代码 性 能 优化 不 太 了 解 的 人 员 ， 笔 者 建议 先 阅读 本 系列 的 第 一 本 书 《 并 行 算法 设计 与 性 能 优化 》[1 和 第 二 本 书 
《并 行 编程 方法 与 优化 实践 》 咎 。 对 于 对 并 行 或 代码 性 能 优化 非常 了 解 的 人 员 ， 可 按照 自己 相关 的 领域 选择 对 应 的 章节 阅读 。 
勘误 和 支持 
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第 1 草 "多核 向 量 处 理 器 架构 


多 核 向 量 处 理 器 的 出 现 是 为 了 更 好 地 提供 程序 所 需 的 性 能 ， 而 处 理 器 的 峰值 性 能 、 程 序 代码 能 够 实现 的 性 能 则 与 硬件 的 特 


性 、 组 织 结构 紧密 相关 。 


硬件 的 性 能 最 终 由 程序 代码 实现 。 代 码 中 的 各 个 部 分 (如 访 存 、 计 算 ) 如 何在 硬件 上 执行 ， 在 硬件 上 执行 时 ， 其 具体 行为 如 
何 ; 这 些 问题 的 答案 都 影响 了 代码 的 最 终 性 能 。 目 前 看 来 只 有 OpenCL 才 有 可 能 在 主流 的 多 核 向 量 处 理 器 (CPU、MIC、GPU、 
FPGA 等 ) 上 都 得 到 支持 ( 即 一 份 代码 可 以 在 这 些 平台 上 运行 )， 故 本 章 只 介绍 OpenCL 程 序 如 何 映射 到 CPU 和 GPU 上 执行 。 


处 理 器 和 程序 是 两 个 相互 独立 、 而 又 相互 联系 的 事物 。 在 计算 机 编程 的 发 展 史上 ， 有 些 看 起 来 相互 矛盾 的 几 个 现象 一 直 在 共 
同 发 展 ， 即 : 


1) 程序 要 独立 于 硬件 ， 不 能 过 分 依赖 硬件 。 为 了 更 好 地 达到 这 一 目标 ， 有 解释 型 编程 语言 、 运 行 时 编译 (Just In 
Time,，JIT) 等 技术 支持 ， 如 CUDA 的 JIT 驱 动能 够 编译 PTX 为 可 执行 代码 ，Python 和 Bash 会 解释 执行 代码 ，Java 虚 拟 机 和 C# 的 
CRT 则 上 升 到 另外 一 个 层面 。 


2) 依据 硬件 的 特性 设计 程序 。 为 了 发 挥 硬件 的 性 能 ， 许 多 软件 开发 人 员 不 得 不 依据 硬件 的 特性 来 设计 程序 ， 比 如 X86 处 理 
器 是 否 支 持 popcount (用 来 计算 二 进 制 表示 的 数据 中 1 的 数量 ) 就 可 能 导致 完全 不 同 的 算法 设计 ; 在 基于 GPU 的 异 构 并 行 计算 
平台 上 ，PCI-E 的 带宽 在 很 大 程度 上 影响 了 算法 的 设计 策略 。 


3) 依据 程序 来 设计 硬件 。 为 了 让 程序 在 自家 的 处 理 器 上 运行 得 更 快 ， 硬 件 生产 商会 依据 一 些 典 型 的 应 用 的 计算 特点 来 设计 
处 理 器 ， 让 处 理 器 在 这 些 典 型 的 应 用 上 性 能 非常 好 。 这 类 上 典型 的 应 用 有 Stencil、 短 阵 乘 等 。 


从 某 种 程度 上 说 ， 这 些 现象 是 相互 矛盾 的 ， 一 方面 要 求 独 立 于 硬件 ， 另 一 方面 又 要 求 依赖 硬件 ， 从 另外 一 方面 来 说 ， 这 些 现 
象 又 是 相互 融合 的 ， 软 件 开 发 人 员 依 据 硬件 设计 程序 和 硬件 生产 商 依 据 典 型 应 用 程序 来 设计 硬件 都 是 为 了 让 应 用 的 计算 性 能 
优 ; 而 不 同 的 编程 语言 希望 独立 于 硬件 则 是 为 了 让 使 用 该 语言 编写 的 应 用 能 够 运行 在 更 多 的 平台 上 。 


本 章 将 介绍 目前 市 场 上 的 主流 多 核 向 量 处 理 器 (如 AMD GPU、NVIDIA GPU、Intel MIC、ARM A15 CPU 和 Intel 
Haswell) 的 硬件 组 织 染 构 ， 以 及 OpenCL 程 序 如 何 映射 到 这 些 硬 件 上 执行 。 为 简单 起 见 ， 本 章 只 介绍 和 性 能 优化 相关 的 部 分 。 


1.1 众 核 系统 结构 


众 核 是 指 处 理 器 核 数 比较 多 ， 通 常 指 处 理 器 核心 数量 在 几 十 个 或 以 上 。 目 前 主流 的 众 核 处 理 器 都 是 多 核 向 量 处 理 器 ， 如 
NVIDIA 和 AMD 的 GPU、Intel 的 MIC 等 。 


目前 的 众 核 处理 器 都 是 通过 PCI-E 总 线 连 到 主板 上 ， 作 为 CPU 控制 的 一 个 硬件 加 速 器 使 用 。sandy Bridge 已 经 完全 集成 了 内 
存 控制 器 和 IOH， 这 意味 着 连接 到 不 同 的 CPU 上 的 众 核 处 理 器 会 连接 到 不 同 的 IOH (MO Hub) 。 如 图 1-1 所 示 为 一 种 简单 的 两 
个 GPU 连 到 两 个 处 理 器 的 情形 。 


在 目前 的 Intel 和 AMD 的 X86 处 理 器 之 间 ， 分 别 通 过 QPI 总 线 和 HT 总 线 连接 多 个 X86 多 核 向 量 处 理 器 。 由 于 处 理 器 集成 了 内 
存 控 制 器 ， 因 此 在 多 路 处 理 器 上 编程 时 最 好 启用 NUMA 特 性 ， 编 程 时 要 考虑 NUMA 的 影响 。 


CPU 
memory 
PCI-E 
= IO Hub 


(PE 
memory 
PCI-E 
LO Hub = 


GPU 
memory 


GPU 
memory 


图 1-1 多 GPU 多 socket 组 织 结构 图 


在 某 些 版 本 的 Intel 主 板 上 ， 由 于 QPI 总 线 的 原因 ， 多 个 众 核 处 理 器 之 间 通 过 QPI 交 换 数据 时 ， 必 须 通过 内 存 而 不 能 使 用 
DMA 传 输 。 


在 Sandy Bridge 处 理 器 上 由 于 IOH 的 原因 ， 连 接 的 同一 IOH 上 的 众 核 处 理 器 之 间 通 过 DMA 传 输 的 带宽 有 可 能 比 通过 内 存 中 
转 的 带宽 要 差 。 


通常 GPU 操作 显存 而 不 是 内 存 ， 而 程序 开始 执行 时 数据 通常 保存 在 内 存 上 ， 这 就 需要 将 数据 从 CPU 内 存 传 入 GPU 显存 。 目 
前 这 类 数据 传输 由 PCI-E 总 线 (不 包括 APU 的 Fusion Compute Link 总 线 ) 负责 ， 如 图 1-1 所 示 。PCI-E 2.0 规 范 中 ， 每 个 通道 的 
数据 传输 速度 达到 了 500.0 MB/s， 这 样 PCI-E 2.0x 16 插 槽 能 够 提供 8 GB/s (0.5x16 GB/s) 的 带宽 ， 即 有 效 带宽 为 8 GB/s。 但 
是 由 于 PCI-E 数 据 封 包 及 运行 时 操作 系统 的 影响 ， 实 际 可 用 的 带宽 最 多 为 5 GB/s~6 GB/s， 慢 的 可 能 为 2 GB/s~3 GB/s (PCI-E 
2.0x16) 。PCI-E 3.0 规 范 的 上 下 行 数据 带宽 均 为 16 GB/s， 实 测 最 高 传输 速度 可 达 近 12 GB/s。 


1.2” 众 核 架 构 的 一 致 性 


不 同 的 厂家 生产 的 众 核 产 品 具有 不 同 的 架构 名 词 、 编 程 环境 名 词 ， 但 是 从 架构 的 某 些 抽象 上 来 说 ， 几 乎 都 是 一 致 的 ， 这 称 为 
众 核 架 构 的 一 致 性 。 众 核 架 构 的 一 致 性 非常 重要 ， 如 果 每 种 众 核 架 构 都 是 完全 不 相同 的 ， 那 么 程序 开发 人 员 和 优化 人 员 就 需要 了 
解 每 一 种 众 核 架构 的 特点 才能 在 上 面 开发 应 用 ， 以 及 优化 运行 在 某 种 众 核 处 理 器 架构 上 的 应 用 ， 这 种 代价 的 巨大 可 想 而 知 。 同 时 
众 核 架 构 的 一 致 性 也 为 OpenCL 这 种 通用 的 众 核 架构 编程 环境 的 存在 提供 了 土壤 ， 而 OpenCL 的 出 现 减 少 了 在 不 同 的 众 核 架 构 间 
移植 程序 的 代价 。 


不 同 的 处 理 器 生产 商 采 用 的 这 种 众 核 架 构 的 一 致 性 既 有 现实 应 用 的 特点 ， 又 由 计算 机 体系 结构 的 理论 所 决定 。 


1) 从 应 用 来 说 : 不 同 的 应 用 具有 不 同 的 特点 ， 有 的 是 计算 密集 型 ， 有 的 是 数据 访问 密集 型 。 有 的 拥有 复杂 的 逻辑 控制 结 
构 ; 有 的 逻辑 结构 简单 ， 但 是 数据 量 或 计算 量 大 。 今 天 人 类 产生 的 数据 的 数量 已 经 越 来 越 大 ， 这 些 数据 由 大 量 人 类 产生 ， 因 此 其 
天 生 具 有 并 行 性 ， 非 常 适合 多 核 处 理 ; 数据 通常 具有 不 同 的 特点 ， 也 有 维度 ， 故 适合 向 量化 。 


2) 从 计算 机 体系 结构 来 说 : 不 同 架构 的 计算 机 适合 处 理 的 工作 负载 具有 不 同类 型 ， 但 是 计算 机 本 质 上 是 利用 应 用 中 不 同 层 
次 的 并 行 性 ， 如 指令 级 并 行 、 数 据 并 行 和 线程 级 并 行 。 另 外 现代 计算 机 设计 中 提升 单机 硬件 性 能 的 两 大 主要 手段 就 是 多 核 并 行 和 
SIMD 并 行 ， 多 核 并 行 编程 通常 需要 使 用 线程 级 并 行 APl， 而 SIMD 并 行 则 需要 利用 应 用 中 的 数据 并 行 。 


无 论 是 从 应 用 特点 的 角度 ， 还 是 从 计算 机 体系 结构 的 角度 来 说 ， 线 程 并 行 和 SIMD 并 行 是 所 有 众 核 染 构 必须 具有 的 特性 。 而 
一 种 处 理 器 架构 很 难处 理 不 同类 型 的 负载 ， 因 此 异 构 并 行 计算 架构 已 经 越 来 越 得 到 业界 的 重视 。 
1. 异 构 并 行 计算 架构 


异 构 并 行 计算 架构 包含 两 个 方面 的 内 容 : 异 构 和 并 行 。 异 构 是 指 计算 系统 上 具有 两 种 或 两 种 以 上 不 同 特点 的 处 理 器 。 目 前 来 
说 ， 异 构 主 要 是 指 CPU+ 加 速 器 ; CPU 主 要 指 X86、Power、ARM 等 ， 现 代 的 X86 和 Power 处 理 器 已 经 能 够 支持 多 种 加 速 器 ; 加 
速 器 主要 指 GPU、Cell 和 FPGA 等 众 核 处 理 器 。 并 行 是 指 无 论 是 要 发 挥 CPU 的 峰值 性 能 ， 还 是 要 发 挥 加 速 器 的 峰值 性 能 ， 都 要 使 
用 并 行 的 编程 方式 ， 因 为 绝 大 多 数 的 加 速 器 都 是 众 核 处 理 器 。 


由 于 异 构 系统 具有 多 种 不 同 架构 的 处 理 器 ， 不 同 架 构 处 理 器 具有 不 同 的 特点 ， 因 此 如 果 要 发 挥 处 理 器 的 峰值 性 能 ， 编 程 时 算 
法 映射 也 会 有 所 不 同 。 由 于 异 构 系统 的 出 现时 间 比 较 短 ， 目 前 编译 器 方面 的 研究 也 不 多 ， 这 些 都 增加 了 软件 设计 人 员 的 负担 。 


2. 多 核 并 行 +SIMD 并 行 


由 于 制造 工艺 和 提升 主 频 遇 到 的 挑战 ， 目 前 计算 机 提升 性 能 的 方式 主要 是 将 多 个 单 核 的 处 理 器 集成 在 一 起 ， 这 称 为 多 核 。 为 
了 增加 多 个 单 核 处 理 器 间 协 作 的 性 能 ， 集 成 起 来 的 多 个 单 核 处 理 器 会 共享 一 些 组 件 ， 比 如 缓存 、 执 行 单元 等 ， 这 种 特点 反映 在 多 
个 层次 上 。 由 于 协作 导致 的 通信 消耗 ， 使 得 不 能 无 休止 地 集成 处 理 器 。 在 多 核 X86 上 ， 目 前 能 够 集成 的 单 核 处 理 器 数量 为 8 左右 
( 单 socket) 。 为 了 进一步 提升 性 能 ， 生 产 商 又 改造 主板 ， 使 得 一 个 主板 上 能 够 安装 多 个 多 核 处 理 器 ， 通 常 称 为 多 路 。 

在 通过 多 核 提升 性 能 的 同时 ， 生 产 商 还 在 单 核 中 集成 多 个 向 量 处 理 单 元 来 提升 性 能 ， 每 个 向 量 中 的 不 同 处 理 单元 必须 执行 相 
同 的 逻辑 路 径 ， 这 称 为 SIMD。 

对 多 核 处理 器 来 说 ， 每 个 处 理 器 可 独立 执行 不 同 的 任务 ， 而 SIMD 单 元 却 必须 共同 执行 同一 操作 。 故 要 发 挥 多 核 向 量 处 理 器 
的 性 能 ， 则 必须 同时 考虑 多 核 并 行 和 SIMD 并 行 。 


现代 的 GPU 具有 多 个 计算 单元 (SM ，CU) ， 而 每 个 计算 单元 又 是 一 个 SIMD 处 理 器 。GPU 和 X86 CPU 的 不 同 在 于 : 在 基于 
GPU 编程 时 无 需 知道 SIMD 单 元 的 宽度 。 


1.3 多核 向 量 处 理 器 架构 


计算 机 架构 可 简单 分 为 两 个 部 分 : 


1) 指令 集 架 构 (Instruction Set Architecture，1SA) 。 指 令 集 架构 确定 了 处 理 器 原生 支持 哪些 指令 (功能 ) ， 如 支持 哪 


些 寻 址 方式 、 哪 些 计 算 指令 等 。 


2) 实现 。 实 现 也 被 称 为 微 架构 (microarchitecture) ， 描 述 了 处 理 器 的 硬件 如 何 组 织 ， 各 个 组 件 的 数量 。 比 如 处 理 器 具有 
几 级 缓存 ， 每 级 缓存 的 容量 、 吞 吐 量 、 映 射 策 略 、 蔡 换 策 略 及 缓存 结构 等 。 计 算 机 体系 结构 中 的 实现 决定 了 硬件 的 峰值 性 能 和 程 
序 是 否 容 易 发 挥 硬件 性 能 。 


本 节 主 要 介绍 主流 多 核 向 量 处 理 器 的 实现 ， 比 如 多 核 处 理 器 如 何 组 织 、 缓 存 层次 结构 、 核 心 的 计算 性 能 等 。 


1.4 Intel MIC 架 构 


由 于 GPU 给 予 Intel 太 多 的 压力 ， 长 期 没有 对 应 的 竞争 产品 ，Intel 在 高 性 能 计算 方面 的 收入 下 降 ， 为 了 保证 利润 ，Intel 的 
MIC 项 目 给 予 了 回应 。 


MIC 又 称 为 Xeon Phi， 它 和 GPU 一 样 ， 也 是 安装 在 PCI-E 总 线 上 ， 并 且 使 用 GDDR5 显 存 。 另 外 ，MIC 基 于 lntel 以 前 的 显卡 
项 目 Larrabee。 


对 MIC 来 说 ， 架 构 上 基于 1993 年 的 奔腾 CPU 架构 ， 但 是 加 入 了 64 位 支持 ， 并 且 每 核心 使 用 4 个 硬件 线程 ， 通 过 线程 的 切换 来 
隐藏 延 时 。 


1.5 ”OpenCl 程 序 在 多 核 向 量 处 理 器 上 的 映射 


硬件 的 架构 决定 了 程序 最 终 如 何 执行 ， 这 包括 CUDA 和 OpenCL 的 抽象 如 何 映射 到 现实 的 设备 上 。 对 于 传统 的 基于 高 级 语言 
的 CPU 编程 而 言 ， 硬 件 是 完全 透明 的 ， 软 件 开 发 除了 优化 性 能 时 需要 了 解 一 些 高 层 的 抽象 外 ， 几 乎 不 天 心底 层 的 硬件 如 何 运 
作 。 而 在 使 用 OpenCl 或 CUDA 进 行 基于 GPU 的 编程 时 ， 开 发 人 员 需 要 了 解 一 些 底层 的 抽象 ， 这 一 方面 能 够 帮助 理解 程序 的 行 
为 ; 另 一 方面 能 够 让 他 们 明白 CUDA 和 OpenCL 能 够 做 什么 ， 不 能 够 做 什么 ， 而 最 重要 的 一 点 是 能 够 写 出 可 扩展 的 、 稳 定 的 高 性 


能 程序 。 


OpenCL 程 序 无 论 是 在 不 同 的 CPU 上 执行 ， 还 是 在 不 同 的 GPU 上 执行 ， 它 们 都 有 相似 的 地 方 。 笔 者 尝试 过 把 这 些 细节 融合 在 
一 起 介绍 ， 最 终 发 现 结果 比较 混乱 和 模糊 ， 因 此 推倒 重 来 ， 采 用 了 现在 这 种 分 别 介绍 的 模式 。 分 别 介绍 会 增加 篇 幅 ， 但 是 却 能 
让 关注 某 一 方面 的 读者 只 阅读 感 兴趣 的 内 容 。 


1.6 ”OpenCLl 程 序 在 各 众 核 硬件 上 执行 的 区 别 


虽然 OpenCL 是 平台 中 立 的 ,但 是 为 了 获得 好 的 性 能 ， 需 要 了 解 不 同 的 生产 商 的 产品 的 特点 ， 同 时 在 编译 时 利用 宏 也 可 以 获 
得 很 好 的 可 移植 性 。 本 节 将 以 提升 性 能 为 目的 介绍 AMD 和 NVIDIA 的 OpenCL 实 现 的 不 同 点 。 


1. 索 引 空 间 、 工 作 组 和 工作 项 的 映射 


在 AMD 和 NVIDIA 的 GPU 上 ， 索 引 空 间 内 的 所 有 线程 映射 到 一 个 GPU 上 ， 索 引 空 间 内 的 线程 划分 为 工作 组 ， 每 个 工作 组 在 
一 个 CU (NVIDIA GPU 上 为 Streaming Multiprocessor，AMD GPU 上 为 SIMD 引 擎 ) 上 执行 ， 工 作 组 内 的 工作 项 映射 为 一 个 
PE。 由 于 Intel 和 AMD 的 X86 CPU 具有 SIMD 单 元 ， 每 个 工作 项 可 能 映射 到 SIMD 单 元 的 一 个 槽 中 。 


在 Intel 和 AMD 的 CPU 上 ， 索 引 空 间 内 的 线程 映射 到 所 有 的 核心 上 ， 但 是 一 个 工作 组 只 映射 到 一 个 核心 上 ， 因 此 工作 项 并 不 
一 定 代表 一 个 线程 ， 很 多 时 候 多 个 工作 项 映射 到 一 个 SSE 向 量 指令 上 。 


为 了 发 挥 X86 CPU 的 性 能 ， 显 式 地 使 用 向 量 数据 类 型 可 能 更 好 。 
2 .数据 传输 


GPU 具有 独立 的 显存 ， 因 此 计算 时 需要 将 数据 从 CPU 上 传输 到 CPU 上 ， 这 个 过 程 可 以 利用 DMA 加 速 。NVIDIA 的 OpenCL 
实现 显 式 地 提供 了 这 一 功能 ， 而 AMD 的 实现 会 在 运行 时 自动 调用 。 


基于 CPU 的 OpenCL 不 使 用 显存 ， 无 需 数据 复制 ， 因 此 最 好 使 用 OpenCL 的 存储 器 映射 ， 这 样 就 免 掉 了 内 存 复 制 的 消耗 。 
3. 任 务 并 行 


CPU 天 生 适 合 任务 并 行 ， 而 GPU 适合 数据 并 行 ， 应 当 合理 的 安排 两 者 的 计算 ， 以 达到 整体 最 优 。 但 在 某 些 情况 下 这 是 一 个 
非常 难 的 问题 。 


另外 CPU 也 支持 数据 并 行 ， 如 SSE/AVX 指 令 就 是 为 了 这 一 目的 设计 的 。 同 时 GPU 也 可 以 实现 任务 并 行 ， 只 要 一 个 kernel 使 
用 一 个 工作 项 即 可 ， 由 于 只 使 用 了 一 个 PE， 其 性 能 也 会 相当 差 。 


4. 全 局 存储 器 读 写 


由 于 GPU 读 写 全 局 存储 器 要 满足 合并 访问 的 要 求 才能 够 很 好 地 发 挥 硬件 的 带宽 ， 目 前 AMD GPU 和 NVIDIA GPU 的 合并 访问 
要 求 基本 上 是 一 致 的 (都 要 求 一 个 执行 单元 的 工作 项 访问 相 邻 的 地 址 且 有 对 齐 要 求 ) ， 而 CPU 的 数据 访问 要 尽量 具有 局 部 性 以 
发 挥 缓存 的 能 力 ， 同 时 对 齐 的 内 存 访问 也 易于 编译 器 使 用 SSE 指 令 优 化 。 


5. 局 部 存储 器 


AMD 某 些 系列 的 GPU 使 用 全 局 存储 器 模拟 局 部 存储 器 ， 因 此 其 局 部 存储 器 的 性 能 很 差 。 而 CPU 上 根本 无 需 存在 局 部 存储 
器 ， 因 此 它们 都 是 内 存 模拟 的 ， 故 为 CPU 进行 OpenCL 编 程 时 最 好 不 要 使 用 局 部 人 存储器。 


不 同 的 GPU 的 局 部 存储 器 的 数量 是 不 一 样 的 ， 如 NVIDIA 的 G80/GT200 上 每 个 SM 的 局 部 存储 器 大 小 为 16KB，Fermi 上 可 配 
置 为 48KB， 而 AMD GPU 中 ， 每 个 SIMD3 引 警 具 有 32KB。 


在 基于 GPU 的 OpenCL 平 台 编程 时 ， 使 用 局 部 存储 器 要 考虑 每 个 工作 组 使 用 的 局 部 存储 器 大 小 ， 因 为 这 会 影响 硬件 的 占用 


6. 工 作 组 声明 
在 OpenCL 中 ， 工 作 组 的 大 小 可 以 显 式 指定 ， 也 可 以 由 编译 器 决定 ， 这 和 CUDA 不 同 。 


在 NVIDIA 的 GPU 上 ，warp 的 大 小 是 32， 因 此 工作 组 大 小 应 当 是 32 的 倍数 ， 但 是 笔者 建议 至 少 是 64 的 倍数 。AMD 的 GPU 
上 ，wavefront 的 大 小 是 64， 故 工作 组 大 小 应 当 是 64 的 倍数 。 目 前 无 论 是 在 AMD 的 GPU 上 ， 还 是 NVIDIA 的 GPU 上 ， 一 开始 将 
工作 组 大 小 设置 为 128~256 是 比较 好 的 选择 。 


在 基于 CPU 的 OpenCL 平 台 上 编程 时 ， 工 作 组 的 大 小 一 般 选 择 32~ 128 比 较 好 ， 并 且 要 尽量 保证 工作 组 的 大 小 和 SSE 指 令 能 
大 小 是 对 齐 的 ， 如 工作 组 访问 char 数 组 ， 那 么 工作 组 大 小 最 好 为 64 或 128。 


7. 上 下 文 切 换 


由 于 GPU 上 切换 执行 单元 执行 时 ， 不 会 保存 或 重启 上 下 文 的 内 容 ， 因 此 这 是 零 消 耗 的 ， 利 用 这 点 可 以 隐藏 访 存 或 其 他 计算 
的 延迟 。 


在 CPU 上 ， 上 下 文 切换 需要 保存 和 重启 上 下 文 ， 因 此 其 代价 非常 高 ， 在 某 些 编程 语言 中 (如 CUDA) 有 设置 是 切换 上 下 文 还 
是 忙 等 待 的 冰 数 。 此 时 编程 要 注意 上 下 文 切换 与 其 他 操作 的 时 间 长 短 ， 才 能 知道 进行 上 下 文 切换 是 否 值得 。 一 般 在 网 络 服务 应 用 
中 ， 使 用 上 下 文 切换 是 值得 的 。 


8. 分 支 


由 于 GPU 的 分 支 单元 相对 比较 少 而 且 缺 乏 分 支 预测 能 力 ， 因 此 分 支 会 减弱 性 能 。 而 CPU 天 生 就 适合 控制 指令 执行 ， 因 此 在 
进行 OpenCL 编 程 时 ， 应 尽量 将 分 支 移 到 Kernel 外面 让 CPU 来 负责 它 的 执行 。 


1.7” 众 核 编程 模式 


对 于 CPU+GPU 的 异 构 系统 来 说， 常见 的 编程 方式 是 : 使 用 CPU 来 完成 逻辑 控制 ， 而 使 用 GPU 来 处 理 计算 密集 的 数据 并 行 


运算 。 
Intel 宣 称 MIC 支 持 4 种 编程 模式 。 


1) 至 强 (Xeon) 本 地 模式 : 所 有 的 进程 和 线程 都 在 主机 上 ， 此 时 MIC 不 干 任何 事情 ， 处 于 休息 状态 。 通 常 使 用 这 种 模式 以 
更 好 地 调试 。 


2) 至 强 为 主机 ，MIC 为 协 处 理 器 : 串 行 代码 在 主机 上 运行 ， 并 行 代码 在 MIC 上 运行 ， 这 种 模式 和 GPU 没有 任何 区 别 。 这 也 
是 目前 最 常见 的 模式 ， 通 党 使 用 Intel OpenMP 扩 展 来 编写 程序 。 


3) 对 称 模式 : 并 行 代码 同时 在 主机 和 MIC 上 运行 ， 这 种 模式 可 以 利用 主机 和 MIC 上 的 所 有 计算 能 力 ， 但 是 由 于 架构 的 不 
同 ， 对 某 些 应 用 来 说 ， 如 何在 主机 和 MIC 之 间 分 配 任务 并 保证 负载 均衡 变 得 非常 困难 。 对 于 另外 一 些 应 用 ， 使 用 动态 负载 均衡 策 
略 可 能 会 获得 好 的 结果 。 


4) MIC 本 地 模式 : 所 有 的 进程 都 运行 在 MIC 上 面 ， 就 将 MIC 看 成 一 个 多 核 处 理 器 。 在 这 种 模式 下 ， 也 许 只 需要 重新 编译 原 
来 的 MPI 程 序 即 可 ， 非 常 有 利于 入 门 学 习 。 由 于 MIC 单 核心 的 性 能 比 Xeon 要 差 很 多 ， 因 此 原来 的 串 行 运行 时 间 会 成 倍增 加 ， 在 
某 些 应 用 上 ,会 成 为 瓶颈 。 另 外 ， 目 前 MIC 最 多 只 有 8GB 内 存 ， 进 程 数 多 的 话 ， 平 均 到 每 个 进程 占用 的 内 存 就 很 少 了 。 


目前 适用 于 CPU+GPU 架 构 的 编程 语言 有 NVIDIA CUDA 和 开放 的 OpenCL， 两 者 基本 概念 的 设计 一 致 。 


Intel 自 己 的 MPI/OpenMP/OpenCL/cilk/Fortran 都 支持 MIC。 另 外 基于 GPU 设 计 的 OpenACC 也 支持 MIC。 


1.8” 众 核 性 能 优化 
每 个 MIC 核 心 支持 4 个 硬件 线程 ， 多 个 硬件 线程 间 的 切换 能 够 隐藏 延迟 ， 但 是 MIC 上 线程 的 切换 不 是 免费 的 ， 因 此 需要 在 线 
程 切换 时 间 、 问 题 规 模 和 线程 数量 上 权衡 。 这 没有 国定 的 公式 或 规则 可 以 应 用 ， 通 常 的 做 法 是 试验 。 


MIC 的 主要 性 能 来 自 于 VPU， 如 何 保证 代码 能 够 被 向 量化 就 非常 重要 。 通 常 向 量化 代码 要 求 地 址 对 齐 、 访 问 地 址 不 相关 ， 
一 个 常见 的 实践 是 将 对 多 维 数组 变化 最 快 的 维 上 的 数据 的 处 理 留 给 VPU。 


编写 缓存 友好 的 代码 ， 必 要 时 使 用 缓存 分 块 、 非 一 致 内 存 访问 及 预 取 技术 。 在 必要 时 ， 可 转换 数据 ， 如 将 由 结构 体 组 成 的 数 
组 改 成 由 数组 组 成 的 结构 体 。 


1.9 MIC 和 GPU 编程 比较 


Intel 宣 称 MIC 是 兼容 X86 的 ， 实 际 上 目前 MIC 只 兼容 没有 使 用 SSE/AVX 指 令 的 代码 (在 64 位 机 器 上 ， 浮 点 运算 即使 用 SSE 指 
令 实现 ) ， 而 且 这 种 兼容 是 源码 的 兼容 而 非 二 进 制 兼容 。 不 过 不 管 怎么 样 ， 这 总 比 移植 到 GPU 上 时 ， 需 要 将 部 分 代码 完全 重 写 
要 好 。 


对 于 某 些 应 用 ， 重 新 编译 可 能 能 够 通过 ， 但 是 这 通常 不 能 发 挥 硬件 的 性 能 ， 因 为 要 利用 VPU， 代 码 必须 要 向 量化 。 


Inte| 宣 称 MIC 使 用 DpenMP 编 程 ， 因 此 其 编程 应 当 会 简单 一 些 。 但 是 这 个 前 提 是 默认 GPU 编程 使 用 CUDA， 如 果 使 用 
OpenACC 的 话 ， 两 者 的 难度 就 相差 不 大 。 另 外 ， 对 于 高 性 能 计算 来 说 ， 通 常 计算 性 能 优化 比 入 门 更 重要 ， 而 GPU 的 计算 性 能 优 
化 比 MIC 要 容易 很 多 。 


1.10 本章 小 结 


本 章 介 绍 了 主流 的 多 核 向 量 处 理 器 架构 ， 主 要 是 处 理 器 核心 组 织 和 缓存 金字 塔 ， 包 括 Intel Haswell、ARM A15、Intel 
MIC、AMD GCN 和 NVIDIA Kepler 架 构 。 


本 章 还 介绍 了 OpenCLl 程 序 如 何在 多 核 处 理 器 上 执行 ， 其 工作 项 和 工作 组 如 何 映射 到 硬件 上 ， 以 及 OpenCL 程 序 如 何在 多 核 
向 量 CPU、NVIDIA Kepler GPU 和 AMD GCN GPU 上 执行 ， 并 且 比 较 了 OpenCL 程 序 在 各 种 不 同 处 理 器 上 执行 时 的 区 别 。 


第 2 草 ”常见 线性 代数 算法 优化 


线性 代数 中 的 许多 操作 是 其 他 算法 和 应 用 的 基础 ， 如 德 阵 向 量 乘法 广泛 应 用 在 图 论 、 有 限 元 和 有 限 差分 求解 器 中 。 和 矩阵 乘法 
则 大 量 应 用 在 数据 挖掘 、 计 算 机 视觉 算法 中 ， 并 且 已 经 成 为 很 多 硬件 厂商 用 来 衡量 现代 计算 机 性 能 的 标准 之 一 。 


本 章 提出 了 许多 优秀 的 计算 方法 ， 例 如 : 笔者 提出 的 使 用 一 个 工作 组 计算 稀 玻 和 矩阵 多 行 与 向 量 乘 积 ; 使 用 自 适 应 方法 计算 稀 
朴 和 矩阵 与 向 量 乘积 ; 如 何 向 量化 下 三 角 方 程 组 求解 等 。 另 外 ， 本 章 提出 的 在 xX86、ARM 和 GPU 上 实现 的 、 简 单 的 矩阵 乘法 的 性 
能 也 是 非常 不 错 的 (已 经 接近 一 些 库 的 性 能 ) 。 


本 章 介 绍 如 何 优化 常见 的 线性 代数 算法 ， 包 括 稀 琉 矩阵 向 量 乘法 、 对 称 和 矩阵 向 量 乘法 、 短 阵 乘 法 及 下 三 角 线 性 方程 组 求解 。 


2.1 稀 芷 矩阵 与 向 量 乘 ; 


现实 应 用 中 ， 很 多 矩阵 都 是 稀疏 的 ， 如 许多 使 用 图 论 来 解决 的 问题 都 可 以 转化 为 对 稀 踊 和 矩阵 的 操作 。 以 北京 市 地 铁 站 点 图 为 
例 ， 以 每 个 站 点 为 一 个 节点 且 以 整数 索引 为 其 编号 ， 那 么 站 点 间 的 连接 关系 就 可 以 以 一 个 稀疏 矩阵 来 表示 ， 短 阵 的 值 可 以 表示 不 
同 的 量 ， 以 表示 在 具体 应 用 场景 下 不 同 的 物理 含义 ， 可 以 表示 站 点 间 的 运行 时 间 、 表 示 票 价 等 。 可 以 依据 Floyd/ 迪 杰 思 特 最 短路 
径 算法 求 得 两 站 间 的 最 短 换 乘 距离 /最 少 票 价 等 。 


有 限 元 计算 时 通常 需要 对 偏 微分 方程 进行 离散 化 处 理 ， 离 散 后 会 形成 一 个 线性 方程 组 ， 方 程 组 的 系数 矩阵 很 多 时 候 是 稀 琉 
的 。 求 解 稀疏 系数 线性 方程 组 常见 的 有 两 种 办 法 : 直接 法 和 间接 法 。 直 接 法 是 指 类 似 LU 分 解 类 方法 ， 而 间接 法 通常 指 迭 代 法 。 
在 使 用 各 种 迭代 法 求解 稀 玻 系数 线性 方程 组 时 ， 最 主要 的 操作 是 计算 稀 玻 矩 阵 向 量 乘法 。 


2.2 对称 中 阵 与 向 量 乘 积 


对 于 对 称 和 矩 阵 来 说 ， 只 需要 保存 左下 角 的 一 半 即 可 ， 这 可 减少 存储 器 使 用 量 。 假 设 以 一 维 数组 保存 对 称 和 矩阵 左下 角 (包括 对 
角 线 ) 的 元 素 ， 那 么 原来 行列 索引 为 (i，j) 的 元 素 在 一 维 数组 中 的 索引 为 : 


Lt™ (EL + i >=] 
7*O+l)/2+1i i<] 


只 保存 对 称 答 阵 一 半 的 方式 减少 了 存储 量 ， 潜 在 地 提升 了 缓存 的 利用 率 ， 却 对 并 行 化 和 向 量化 运算 带 来 了 挑战 。 本 节 简 要 说 
明 如 何 并 行 化 和 向 量化 对 称 和 矩阵 向 量 乘法 。 


2.3 三 角 绪 性 方程 组 的 解法 


在 使 用 直接 法 解 线性 方程 组 时 ， 计 算 步 骤 可 分 成 两 个 部 分 : 其 一 ， 将 系数 矩阵 分 解 成 上 三 角 和 矩阵 和 下 三 角 和 矩阵， 即 LU 分 
解 ; 其 二 ， 求 解 上 三 角 线 性 方程 组 和 下 三 角 线 性 方程 组 。 关 于 使 用 直接 法 求解 线性 方程 组 的 内 容 ， 感 兴趣 的 读者 可 以 参考 相关 的 
教科 书 。 最 后 一 步 (矩阵 分 解 成 上 三 角 和 下 三 角 矩 阵 之 后 ) 是 要 求解 上 /下 三 角 方 程 组 ， 尤 其 是 在 只 需 在 初始 化 时 进行 一 次 矩阵 
分 解 然 后 多 次 求解 的 情况 下 ， 上 /下 三 角 方 程 组 的 计算 更 为 重要 。 本 节 以 下 三 角 方程 组 为 例 ， 说 明 如 何 优化 。 


2.4 和 矩阵 乘法 


实际 的 许多 工程 应 用 都 涉及 或 可 转化 为 矩阵 乘法 ， 因 此 其 常 成 为 衡量 硬件 性 能 的 标准 。 如 NVIDIA 和 AMD 发 布 新 的 GPU 处 
理 器 时 ， 经 常 就 宣称 其 Sgemm ( 单 精度 稠密 答 阵 乘法 ) 或 dgemm ( 双 精 度 稠密 矩阵 乘法 ) 性 能 达到 多 少 FLOPS。 因 此 如 何 高 
效 地 将 矩阵 乘法 映射 到 硬件 上 就 非常 重要 ， 这 成 为 衡量 硬件 性 能 的 实际 标准 之 一 ， 同 时 也 应 当成 为 衡量 软件 开发 人 员 代码 性 能 优 
化 水 平 的 标准 之 一 。 


将 一 个 大 小 为 M xK 的 矩阵 与 一 个 大 小 为 KxN 的 矩阵 相 乘 ， 其 结果 为 一 个 大 小 为 Mx N 的 矩阵 。 在 最 理想 情况 下 ， 其 计算 访 
存 比 例 为 ， 假 设 都 是 方 阵 ， 即 M=K=N， 那 么 计算 访 存 比 可 简化 为 。 但 是 由 于 现代 处 理 器 的 缓存 大 小 是 有 限 的 ， 因 此 计算 访 存 比 
上 限 通 常 受 限 于 寄存 器 数量 和 缓存 容量 。 


在 现代 多 核 向 量 处 理 器 上 实现 矩阵 乘法 时 ， 需 要 注意 以 下 几 点 : 


1) 对 全 局 存储 器 (DRAM) 的 访问 是 否 高 效 。 比 如 在 X86、ARM 架 构 上 实现 时 是 否 能 够 使 用 向 量 加 载 和 存储 指令 ; 在 GPU 
上 实现 时 是 否 满 足 合并 访问 的 要 求 。 


2) 是 否 能 很 好 地 使 用 处 理 器 核心 上 的 缓存 。 比 如 在 X86、ARM 架 构 上 是 否 能 有 效 地 利用 一 级 缓存 ， 在 GPU 上 实现 时 是 否 能 
很 好 地 利用 了 局 部 存储 器 带宽 。 


3) 是 否 很 好 地 使 用 了 寄存 器 分 块 算法 。 无 论 是 在 X86、ARM 处 理 器 上 ， 还 是 在 GPU 上 ， 如 果 不 考虑 寄存 器 数据 重用 的 话 ， 
一 级 缓存 或 局 部 仓储 器 的 带宽 和 延迟 无 法 满足 矩阵 乘法 计算 的 要 求 。 


4) 是 否 考虑 到 生成 的 指令 能 足够 好 。 在 支持 乘 加 指令 的 处 理 器 上 就 不 应 当 生成 乘 或 加 指令 。 
5) 是 否 考 虑 到 如 何 掩盖 指令 和 访 存 延迟 。 需 要 有 足够 的 计算 和 访 存 并 行 度 以 利用 处 理 器 计算 单元 和 访 存 单元 的 带宽 。 


本 节 将 实现 基于 AVX、ARM NEON 指 令 集 和 GPU 的 矩阵 乘法 。 


2.5 ”本 章 小 结 


本 章 详细 介绍 了 如 何在 X86、ARM 和 和 GPU 处理 器 上 优化 常见 的 线性 代数 算法 ， 这 些 算法 非常 常见 ， 比 如 计算 不 同 保存 格式 
的 稀疏 矩阵 向 量 乘法 ， 不 同 特征 的 矩阵 和 向 量 乘 法 。 最 后 本 章 以 如 何在 X86、ARM 和 GPU 上 实现 性 能 强大 的 矩阵 乘法 算法 结 
尾 。 


第 3 章 ”优化 偏 微 分 方程 的 数值 解法 


偏 微分 方程 广泛 应 用 于 科学 计算 的 方方面面 ， 计 算 流 体力 学 和 空气 动力 学 模拟 飞行 器 试飞 中 的 气流 对 飞行 器 影响 时 ， 需 要 求 
解 空气 动力 学 方程 和 流体 方程 来 模拟 流体 的 流动 ， 这 些 方程 都 是 偏 微分 方程 离散 所 得 。 石 油 勘探 中 利用 方程 偏 微分 求解 来 模拟 地 
下 的 形状 ， 进 而 判断 是 否 有 油气 田 ， 常 见 的 算法 如 RTM (Reverse Time Migration ， 逆 时 偏 移 ) 。 


数值 求解 偏 微分 方程 的 基本 方法 是 利用 各 种 离散 差分 方式 ， 将 偏 微分 方程 转化 为 显 式 格式 ( 递 推 式 ) 或 隐 式 格式 (方程 
组 ) ， 然 后 求解 方程 组 或 递 推 一定 的 步 数 即 可 获得 近似 解 。 常 见 的 离散 方法 可 分 为 时 间 域 方法 和 空间 域 方法 ， 时 间 域 离散 是 指 将 


一 个 时 间 段 划分 成 许多 小 的 时 间 段 ;而 空间 域 离散 是 指 依据 很 小 的 步 长 将 空间 划分 成 小 格子 (二 维 ) 或 小 长 方 体 (三 维 ) ， 离 散 
的 步 长 可 固定 ， 也 可 不 固定 。 


本 章 首先 以 热 传 递 问题 为 例 ， 简 单 展示 如 何 离散 偏 微分 方程 以 获得 其 差分 格式 。 然 后 展示 如 何 使 用 DpenMP、OpenACC 和 
CUDA 求 解 、 优 化 离散 得 到 的 方程 组 。 


许多 偏 微分 方程 离散 后 的 计算 符合 Stencil 模 式 ， 实 际 上 热 传 递 问题 偏 微分 方程 离散 的 计算 就 是 一 个 二 维 的 Stencil 模 式 。 本 
章 以 如 何 使 用 CUDA 计 算 三 维 Stencil 模 式 为 例 ， 展 示 一 些 高 级 技巧 的 运用 。 


3.1 热 传 递 问 题 


考虑 长 宽 为 MxN 的 二 维 区 域 上 的 热传导 方程 及 固定 边界 条 件 如 下 : 


Ou du Ou 
i 
Of Or Oy 


u(t,x,y)= fl x=0 
(f= 2 EM 
u(tsx,y)=f13 y=0 
u(t,x,y)=f4 y=N 


其 中 u 表 示 温 度 ，f1、f2、f3 和 f4 表 示 不 同 的 约束 条 件 ， 而 M 和 NN 表示 模拟 空间 大 小 。 时 间 以 步 长 At 一 阶 前 向 离散 (时间 
域 ) 、 空 间 以 步 长 为 hxxhy 二 阶 后 向 离散 (空间 域 ) ， 可 得 以 下 显 式 差分 公式 : 


| 


ntl nh n 天 n nn n n 
Ui Ui Wi tu A Wipa t hija 2) 
A h? 

I x y 
其 中 n 表 示 时 间 步 ， 即 尼 时 的 实际 时 间 是 nxAt; 汪 示 x 方向 位 置 ， 即 其 相对 原点 的 距离 为 jxhx; j 和 i 兴 似 ，i 和 j 组 成 了 一 个 二 


维 空间 网 格 点 的 坐标 。 此 离散 公式 精度 为 0 (At+max (hx，hy) “2) 。 进 一 步 假设 采用 正方 形 网 格 离散 ， 即 假设 hx=hy， 整 理 可 
得 以 下 显 式 差分 公式 : 


n+l _ Ai py | “二 曾 
了 i,j+l i,j i+l1,j 
hh 


根据 稳定 性 分 析 ， 可 得 离散 公式 的 稳定 性 条 件 为 : 


A 


如 果 需 要 长 时 间 的 模拟 ， 那 么 只 需要 将 要 模拟 的 时 间 以 At 为 单位 划分 迭代 次 数 ， 每 次 迭代 的 输入 就 是 上 一 次 迭代 的 输出 ， 
那么 只 要 计算 能 力 允 许 ， 可 以 模拟 任意 长 时 间 。 一 般 而 言 ， 模 拟 结果 收敛 后 模拟 才 结束 ， 但 是 为 了 方便 ， 本 节 使 用 了 简单 的 固定 
时 间 步 数 的 模拟 。 


如 果 以 一 个 二 维 数组 的 值 表示 各 个 网 格 点 上 的 u 的 值 〈 即 其 索引 表示 i，j) ， 并 且 在 固定 时 间 步 长 At 和 空间 步 长 hx 的 情况 
下 ， 那 么 热 传 递 问 题 的 求解 就 变 成 了 一 个 简单 的 递 推 数学 运算 问题 。 


3.2 ”简单 三 维 Stencil 


Stencil 是 一 种 非常 常见 的 的 算法 模式 ， 广 泛 应 用 于 图 形 图 像 处 理 、 石 油 勘 探 、 计 算 流体 力学 模拟 等 各 个 领域 。 图 形 图 像 处 
理 中 经 常 使 用 卷 积 运算 来 提取 特征 ， 而 卷 积 运算 就 可 看 成 是 一 个 二 维 的 Stencil 模 式 ;图形 图 像 中 常见 的 模糊 算法 (如 求 周围 多 
个 像素 均值 ) 、 去 噪 算法 也 是 一 种 二 维 的 Stencil 模 式 ， 计 算 流体 力学 中 的 格子 波 尔 兹 曼 方 法 通常 模拟 网 络 点 之 间 物 质量 的 传递 
来 表示 流体 的 运动 、 物 质 (广义 的 物质 ) 传递 ， 格 子 波 尔 效 曼 方 法 的 计算 就 基本 符合 Stencil 模式 的 特征 ; 而 石油 勘探 中 常用 的 
逆 时 偏 移 算法 将 偏 微分 方程 离散 后 得 到 的 显 式 方程 也 是 一 种 Stencil 模 式 。 


常见 的 Stencil 模 式 主 要 有 两 种 分 类 : 十 字模 式 和 田 字 模式 。 为 了 简单 和 直观 ， 笔 者 只 使 用 二 维 的 情况 描述 。“ 十 ”字模 
式 ， 输 出 “十 ” 字 中 间 位 置 的 值 等 于 输入 “十 ” 字 中 5 个 数据 的 加 权 和 ; “ 田 ” 字 模式 ， 输 出 “ 田 ” 字 中 间 位 置 的 值 等 于 输 
入 “ 田 ” 字 中 9 个 数据 的 加 权 和 。 当 然 ，5 和 9 是 Stencil 半 径 等 于 1 时 的 情况 ， 如 果 Stencil 半 径 等 于 3 的 话 ， 那 么 “十 ”字模 式 
和 “ 田 ”字模 式 中 一 个 输出 数据 相关 的 输入 数据 个 数 分 别 为 13 和 49。 关 于 Stencil 模式 的 更 详细 说 明 ， 请 参考 维基 百科 的 相关 条 
目 。 


对 于 Stencil 模式 来 说 ，Sstencil 半 径 越 大 ， 缓 存 的 空间 局 部 性 和 时 间 局 部 性 就 越 好 ， 性 能 的 限制 因素 就 越 来 越 向 缓存 层次 结 
构 的 上 层 转移 (性 能 就 越 来 越 限 制 在 更 高 带宽 的 缓存 上 ) 。 但 是 对 于 X86 处 理 器 来 说 ， 由 于 三 维 Stencil 模 式 需 要 的 理想 情况 下 的 
缓存 是 三 维 相 邻 的 (类似 GPU 上 的 纹理 存储 器 结构 ) ， 因 此 硬件 设计 为 一 维 相 邻 的 缓存 (如 X86 处 理 器 上 的 缓存 ) 需要 使 用 缓存 


分 块 技术 。 


由 于 与 Stencil 相 关 的 应 用 涉及 计算 机 应 用 的 各 个 领域 ，Stencil 已 经 成 为 许多 处 理 器 硬件 设计 厂商 的 性 能 衡量 标准 程序 之 
一 。 本 章 以 三 维 的 十 字模 式 为 例 ， 介 绍 在 X86 架构 上 实现 Stencil 遇 到 的 困境 ， 以 及 如 何在 GPU 上 高 效 地 实现 。 


为 了 简单 起 见 。 本 章 的 示例 使 用 三 维 Stencil 半 径 为 4 的 十 字模 式 ， 即 对 中 心 点 周围 25 个 点 加 权 求 和 ; 并 且 权 重 是 对 称 的 ， 即 
和 中 间 点 距离 相等 的 输入 点 的 权重 相同 。 另 外 假定 输出 数据 三 维 长 度 都 为 4096。 


3.3 本章 小 结 


偏 微分 方程 广泛 应 用 于 科学 计算 的 方方面面 ， 本 章 以 热 传 递 问题 和 三 维 Stencil 计 算 为 例 ， 简 单 展 示 了 如 何 离散 偏 微 分 方程 
以 获得 其 差分 公式 ， 然 后 展示 如 何 使 用 OpenMP、OpenACC 和 CUDA 求 解 、 优 化 其 计算 性 能 。 


本 章 展示 了 如 何 使 用 CUDA 求 解 三 维 Stencil 模 式 ， 并 且 展 示 了 如 何 使 用 CUDA 在 NVIDIA GPU 上 高 效 地 实现 三 维 Stencil 模 
式 。 


第 4 草 ”优化 分 子 动力 学 算法 


分 子 动力 学 (Molecular Dynamics，MD) 方法 是 分 子 模拟 的 主要 方法 之 一 。MD 主 要 依靠 在 相 空 间 内 求解 牛顿 方程 来 模 
拟 分 子 体系 的 运动 。 从 轨迹 (速度 、 位 置 、 力 、 能 量 ) 数据 中 依据 统计 力学 原理 来 获得 系 综 的 各 种 宏观 性 质 。 


MD 主要 依据 波恩 - 奥 本 海 默 近似 : 认为 原子 受 力 是 原子 核 间距 离 的 沙 数 ， 与 速度 无 关 ， 与 电子 的 运动 无 关 ， 因 此 可 以 将 其 
势能 表示 为 位 置 的 肖 数 ， 这 些 函 数 称 为 力 场 。 力 场 用 来 描述 原子 间作 用 。 对 于 一 个 有 NN 个 原子 (广义 的 原子 ， 可 称 为 粒子 ) 的 系 
统 ， 可 用 牛顿 定理 来 描述 原子 间 的 运动 ， 进 而 获得 系统 中 每 个 原子 各 个 时 刻 的 位 置 和 速度 ， 其 运动 规律 可 用 式 (4-1) 表示 。 

? 

dir. oV 
一 = 二 F; = 一 一 ( 4-1) 
dt Or. 


其 中 ，m 球 示 粒 子 的 质量 ，ri 指 粒子 的 坐标 ，F 昕 焙 子 的 受 力 ，t 为 时 间 ，V 指 势能 邹 数 。 


在 实际 计算 中 ， 并 不 对 式 (4-1) 进行 数学 积分 ， 而 是 采用 离散 差分 的 方式 。 通 过 离散 差分 获得 系统 模拟 轨迹 (位 置 、 速 
度 ) 信息 。 使 用 统计 学 的 原理 分 析 轨 人 迹 数据 就 可 以 得 到 系统 的 某 些 宏观 性 质 。 


相 比 量子 力学 运算 ，MD 要 求 的 计算 量 要 小 很 多 ， 但 是 对 大 体系 的 模拟 依然 非常 耗费 时 间 。 比 如 在 现在 的 单个 多 核 向 量 处 理 
器 上 ， 几 万 个 粒子 体系 的 模拟 可 能 需要 几 天 甚至 几 周 ， 因 此 对 于 MD 运算 来 说 ， 如 何 将 算法 高 效 地 映射 到 处 理 器 硬件 上 非常 重 
要 。 


本 章 以 MD 算法 中 的 基本 步骤 为 例 : 邻居 搜索 ， 范 德 华 力 计算 ， 键 长 伸缩 力 计算 和 径 向 分 布 函数 ， 展 示 如 何在 X86 处 理 器 和 


GPU 上 优化 这 一 类 算法 。 


4.1 简单 搜索 的 实现 


MD 算法 的 核心 在 于 计算 粒子 之 间 的 作用 力 ， 这 就 要 求 提前 知道 哪些 粒子 会 发 生 作 用 。 邻 居 搜 索 实 现 了 这 一 功能 。 
邻居 搜索 的 目的 在 于 找到 和 某 个 粒子 发 生 作用 的 所 有 粒子 。 采 用 邻居 搜索 的 原因 有 两 点 : 
` 可 以 多 次 使 用 一 次 邻居 搜索 的 结果 ， 多 次 计算 力 。 如 果 不 是 这 样 的 话 ， 没 有 必要 独立 邻居 搜索 以 节省 存储 量 ; 
.采用 截断 的 策略 减少 粒子 间 相 互 作用 的 计算 量 。 如 果 没 有 截断 的 话 ， 那 么 所 有 的 粒子 都 是 邻居 ， 也 没有 必要 搜索 。 


对 于 范 德 华 力 来 说 ， 由 于 粒子 之 间 的 距离 越 大 ， 力 的 作用 就 越 接近 于 0， 因 此 可 以 找到 某 个 靖 值 ， 在 粒子 间距 离 大 于 阔 值 
时 ， 它 们 之 间 的 作用 力 和 势能 均 近 似 为 0， 这 些 粒子 之 间 的 作用 可 以 被 忽略 以 减少 计算 ， 这 个 冰 值 称 为 截断 距离 。 在 基于 离散 差 
分 的 算法 中 ， 在 几 个 步 长 时 间 内 ,粒子 的 位 移 比较 小 ， 粒 子 的 邻居 99.9% 以 上 没有 改变 ， 即 使 改变 也 应 当 是 边界 的 粒子 ， 它 们 对 
力 和 势能 的 贡献 非常 小 ， 此 时 可 以 不 对 粒子 的 邻居 粒子 进行 更 新 ， 以 减少 邻居 搜索 的 计算 量 。 实 际 上 ， 为 了 强化 这 一 点 ，MD 程 
序 经 常会 稍微 松弛 截断 距离 ， 具 体 的 大 小 需要 在 更 新 邻居 列表 的 频率 和 增加 的 范 德 华 力 的 计算 量 之 间 均 衡 考虑 。 


依据 牛顿 第 三 定律 ， 由 于 粒子 之 间 的 相互 作用 力 大 小 相等 ， 方 向 相反 ， 因 此 只 需要 查找 一 半 候 选 粒子 即 可 。 


常用 的 邻居 搜索 算法 有 3 种 : 简单 搜索 、 元 胞 搜索 和 网 格 搜索 。 它 们 都 利用 了 截断 的 思想 ， 由 于 和 本 节 的 具体 内 容 无 关 ， 笔 
者 就 不 详细 介绍 它们 了 。 


在 MD 中 的 简单 搜索 中 ， 对 于 每 个 粒子 而 言 ， 在 搜索 其 他 所 有 粒子 时 ， 如 果 两 者 之 间距 离 小 于 截断 距离 ， 就 将 该 粒子 加 入 自 
己 的 邻居 列表 中 。 由 于 对 每 一 个 粒子 都 要 搜索 体系 内 的 所 有 粒子 ， 故 该 算法 的 时 间 复 杂 度 为 0 (N“) ，N 是 粒子 的 数目 。 


范 德 华 力 属于 MD 模拟 中 粒子 之 间 的 非 键 作用 之 一 。 计 算 范 德 华 力 时 要 考虑 参数 、 邻 居 列表 、 各 粒子 坐标 等 。 
用 于 计算 范 德 华 力 的 L-J 公 式 如 式 (4-2) 。 


(12) (6) 
Vy 3 C; (Ci FP 
也 一 .7 (7 ) 二 12 6 ( 4-2 ) 


式 (4-3) 对 应 的 范 德 华 力 计算 公式 如 式 (4-4) 。 


1(12) 1(6) ， 
jj 的 Fs 
| Pe: 天 Fs 

U u 如 


(6) 


~(12) 
其 中 : VL 表示 势 能 ; “7 、G 表示 范 德 华 参数 ; ri 表示 粒子 i、j 之 间 的 距离 ;Ff 素 示 i 壮 子 受 到 的 合力 。 


计算 范 德 华 力 需要 知道 粒子 位 置 、 作 用 参数 。 粒 子 位 置 、 作 用 参数 和 受 力 数组 的 组 织 ， 全 部 采用 一 维 数 组 ， 粒 子 位 置 和 受 力 
参数 采用 数组 组 成 的 结构 体 的 存储 方式 。 


4.3 键 长 伸缩 力 计算 


本 文 使 用 的 键 伸缩 势 函数 ， 如 式 (4-5) 所 示 。 
〖 ) 
V, (1 ) pa (7 -= ( 4-5 ) 


其 中 : ri 为 i、 两 原子 之 间 的 距离 ，% 表 示 键 长 伸缩 系数 ;ro 是 i、j 两 原子 之 间 的 平衡 距离 。 


在 一 些 模拟 中 ， 为 了 增 大 模拟 的 时 间 步 长 ， 或 者 因为 某 些 键 的 振动 并 不 符合 势能 函数 特征 ， 会 应 用 限制 算法 ， 以 便 将 键 的 位 
置 限制 在 平衡 键 长 。 


4.4， 径 向 分 布 函数 计算 


径 向 分 布 函 数 表 示 在 某 种 粒子 周围 区 域内 找到 某 种 粒子 的 概率 ， 即 在 一 个 球 环 内 某 种 粒子 的 密度 ， 如 在 硫酸 铜 溶液 中 ， 铜 离 
子 周 围 5nm 找 到 其 他 铜 离子 的 概率 。 径 向 分 布 函数 常用 来 表征 粒子 的 聚焦 能 力 ， 如 电子 云 的 密度 、 粒 子 分 布 概率 等 。 通 常 并 不 
要 求 非常 准确 的 计算 结果 ， 故 通常 可 采用 将 计算 区 域 划分 成 大 小 相等 的 球 环 的 计算 方法 ， 具 体 计算 流程 类 似 于 求 图 像 的 直方 图 ， 
其 基本 算法 如 下 : 


1) 依据 计算 区 域 的 最 大 距离 和 划分 的 球 环 大 小 ， 计 算出 需要 多 少 个 环 ， 并 分 配 空间 保存 环 中 的 粒子 数目 。 
2) 对 于 每 个 粒子 i 遍历 其 他 粒子 /， 计 算 和 lj 之 间 的 距离 d， 确 定 它们 在 第 几 个 环 中 ， 将 该 环 的 粒子 数目 计数 加 1。 
3) 由 于 距离 是 对 称 的 (a、b 之 间 的 距离 和 b、a 之 间 的 距离 相等 ) ， 可 以 利用 这 一 点 降低 计算 量 。 


从 算法 上 看 ， 最 主要 的 运算 是 求 两 个 粒子 之 间 的 距离 ， 然 后 求 在 哪个 环 中 ， 然 后 计算 加 一 ， 计 算 访 存 比 相对 来 阅 比较 低 ， 
此 性 能 应 当 受 限 在 访 存 上 。 


4.5 ”本章 小 结 


本 章 介绍 了 如 何在 X86 和 GPU 上 优化 分 子 动力 学 应 用 ， 包 括 如 何 向 量化 和 线程 化 ， 及 如 何 优化 OpenMP 代 码 以 获得 线性 扩 
展 。 


本 章 详细 介绍 了 如 何 优化 分 子 动力 学 应 用 中 的 主要 算法 的 性 能 ， 如 邻居 搜索 、 计 算 范 德 华 力 、 计 算 急 键 长 伸缩 力 及 如 何 计算 
径 向 分 布 函 数 。 


第 5 草 ”机 器 学 习 算 法 


依据 数学 和 统计 学 原理 ， 机 器 学 习 算 法 通常 从 大 量 数 据 中 找 出 某 种 经 验 或 半 经 验 的 规律 (通常 称 为 函数 或 模型 ) 。 为 了 准确 
学 习 数 据 的 规律 ， 通 常 要 求 将 大 量 数据 用 做 学 习 之 用 。 今 天 ， 机 器 学 习 广泛 应 用 在 人 类 生活 的 方方面面 ， 京东、 阿里 会 依据 客户 
的 购物 历史 数据 ， 用 机 器 学 习 的 办 法 推测 客户 的 喜好 ， 进 而 有 针对 性 地 向 客户 推荐 新 的 商品 。 百 度 搜索 引擎 通过 机 器 学 习 的 方法 
分 类 网 页 ， 计 算 不 同 网 页 之 间 的 相关 性 。 


今天 ， 如 日 中 天 的 深度 学 习 可 以 看 成 是 机 器 学 习 中 神经 网 络 算法 的 应 用 ， 浓 度 学 习 方法 由 于 简单 、 粗 暴 、 好 用 、 易 用 的 特点 
已 经 被 各 大 互联 网 公司 广泛 使 用 。 百 度 成 立 的 深度 学 习 研究 院 和 阿里 成 立 的 数据 科技 研究 院 (Institute of Data 
Science&Technologies，IDST) 就 是 典型 的 例子 。 


机 器 学 习 使 用 的 数据 之 间 既 有 联系 又 有 区 别 ， 而 大 量 等 待 处 理 的 数据 天 然 就 具有 向 量化 和 并 行 化 需求 。 深 度 学 习 的 很 多 算法 
需要 长 时 间 ( 几 天 、 几 周 、 甚 至 几 个 月 ) 的 训练 ， 这 些 都 对 提高 计算 速度 提出 了 严格 的 要 求 。 


本 章 主 要 以 数据 挖掘 中 常用 的 k-means 和 KNN ， 以 及 深度 学 习 算 法 中 的 卷 积 为 例 ， 展 示 相 关 的 代码 优化 、 向 量化 和 并 行 化 
技术 。 


5.1 k-means 算法 


k-means 算法 是 一 种 聚 类 分 析 算 法 。 聚 类 分 析 的 目的 是 将 若干 特征 相似 的 特征 模式 划分 到 一 个 集合 ， 每 个 集合 的 特征 模式 
之 间 按 照 某 种 度量 来 衡量 相似 程度 ， 使 得 同一 个 集合 内 的 数据 对 象 具 有 较 高 的 相似 度 ， 而 不 同 集合 中 的 数据 对 象 间 的 相似 度 尽 可 
能 小 。 数 据 对 象 间 特 性 差异 的 大 小 通常 借助 于 某 一 距离 空间 中 的 距离 概念 来 表示 。 在 现 有 的 聚 类 算法 中 ，k-means 算 法 以 其 简 
单 和 高 效 占有 重要 地 位 ， 被 大 量 应 用 于 数据 挖掘 中 。 


k-means 算 法 广泛 应 用 在 数据 挖掘 中 ， 比 如 电 商 依据 客户 购买 商品 的 历史 将 客户 分 成 不 同 的 类 别 ， 然 后 向 某 一 类 客户 推荐 
该 类 别 其 他 客户 购买 过 的 某 些 商品 。 有 的 电 商 会 对 商品 进行 聚 类 分 析 ， 以 分 析 哪 些 商品 会 同时 被 客户 购买 ， 从 而 获得 推荐 的 依 
据 。 


但 实际 上 ，k-means 算 法 有 两 个 比较 严重 的 问题 : 


1) 分 类 的 数目 ， 即 k 值 是 提前 给 定 的 。 如 果 不 知道 要 分 多 少 类 怎么 办 ? 常见 的 办 法 是 通过 可 视 化 方法 ， 人 工 观 察 需要 分 多 


少 类 . 


2) 初始 点 ， 如 果 初 始点 没有 选择 好 ， 可 能 产生 不 好 的 结果 。 很 明显 的 是 ， 不 同 的 初始 点 可 能 得 出 不 同 的 计算 结果 。k- 
mean++ 算 法 给 出 了 一 种 更 好 的 选择 初始 点 的 方法 。 


5.2 KNN 算 法 


KNN 是 一 种 分 类 算法 ， 分 类 算法 可 以 简单 地 理解 为 已 经 有 了 一 些 分 好 类 的 数据 ， 依 据 某 种 规则 来 确定 未 分 类 的 数据 属于 哪 
个 类 。KNN 算 法 的 规则 是 由 离 自己 最 近 的 K 个 元 素来 投票 决定 待 分 类 数据 归 为 哪 一 类 ， 通 常 简单 采用 多 数 表达 的 方式 。 要 应 用 
KNN 算 法 的 前 提 条 件 是 有 一 个 已 分 类 的 元 素 集 ， 然 后 对 于 待 分 类 的 每 个 元 素 ， 计 算 其 离 已 分 类 元 素 集中 最 近 的 k 个 元 素 ， 由 这 kK 


个 元 素来 确定 待 分 类 元 素 属 于 哪个 分 类 。 


5.3 ”二 维 卷 积 


计算 机 图 形 学 和 计算 机 视觉 中 使 用 卷 积 运算 用 来 提取 图 像 的 特征 ， 比 如 是 否 是 边缘 、 像 素 变化 方向 等 。 二 维 卷 积 通常 只 涉 
一 幅 图 像 和 一 个 滤波 器 ， 而 图 像 和 滤波 器 的 通道 数 也 很 少 。 假 设 原始 的 图 像 大 小 是 hxw， 卷 积 核 的 大 小 是 fxf， 那 么 进行 二 维 卷 
积 运算 后 结果 图 像 的 大 小 是 (h-f+1) x (w-f+1) ， 结 果 图 像 的 每 个 值 是 原始 图 像 对 应 像素 值 和 滤波 器 对 应 像素 值 的 乘积 的 
和 ， 核 心计 算 如 代码 清单 5-13 所 示 。 


代码 清单 5-13 ”二 维 卷 积 核心 计算 代码 


// loop output height 
for (int i = 0; i < h-f+1l; i++) { 
// loop output width 
for (int j = 0; j < w-f+1l; j++) { 

float ret = 0.0f; 
// loop kernel height 

EG 儿 半 n 主 主 : 寺 人 0 训 主 主 攻 ， 企 有 生计 二 夺 省 
// loop kernel width 

for (int jj = 0; jj < f; jj++) { 
ret += in[ (i+ii) *wt+j+jj] * filter[ii*xf+jj]; 


} 


} 
out[i* (w-f+1) +j] = ret; 
} 


本 节 展 示 了 如 何在 X86、ARM 和 GPU 上 优化 卷 积 运算 ， 这些 优化 方法 在 某 种 程度 上 和 Stencil 类 似 ， 也 可 以 应 用 到 其 他 类 似 
模式 上 。 


5.4 “四维 卷 积 


卷 积 神经 网 络 广泛 应 用 在 人 脸 识别 、 图 像 识 别 、 文 字 处 理 中 ， 是 目前 使 用 最 广泛 的 计算 机 视觉 算法 之 一 。 在 流行 的 


Imagenet 卷 积 神经 网 络 的 GPU 实现 中 ， 卷 积 计算 时 间 占 总 运算 时 间 的 比例 在 70% 以 上 ， 虽 然 GPU 的 应 用 极 大 地 减少 了 卷 积 神经 
网 络 的 训练 计算 时 间 ， 但 是 一 些 复杂 的 网 络 依旧 需要 训练 一 周 甚至 几 周 才能 完成 。 卷 积 神经 网 络 训练 得 到 的 模型 会 用 于 实际 的 应 
用 ， 而 实际 的 应 用 中 还 是 X86 平 台 居 多 。 另 外 随 着 手机 端 计算 能 力 越 来 越 召 ， 把 卷 积 神经 网 络 用 于 ARM 平 台 能 够 给 用 户 更 好 的 
使 用 体验 ， 故 也 非常 重要 。 许 多 工程 人 员 也 进行 了 丰富 的 尝试 ， 故 优化 基于 X86、ARM、 GPU 的 卷 积 运算 非 常 有 意义 。 


卷 积 神经 网 络 中 的 卷 积 层 核 心算 法 则 涉及 多 幅 图 像 、 多 个 滤波 器 ， 图 像 和 滤波 器 的 通道 数 也 非常 多 。 为 了 统一 描述 ， 笔 者 将 
其 格式 固定 为 : 图 像 数 量 、 图 像 通道 数 、 图 像 高 和 图 像 宽 。 这 种 格式 也 称 为 标准 的 特征 图 格式 。 为 了 和 二 维 卷 积 相 区 分 ， 笔 者 称 
其 为 四 维 卷 积 。 


如 果 假 设 只 有 一 幅 图 像 和 一 个 滤波 器 的 话 (要 求 图 像 和 滤波 器 的 通道 数 相 同 ， 通 道 数量 并 不 一 定 是 3， 有 可 能 远大 于 3) ， 

四 维 卷 积 运 算 描述 如 下 : 遍历 所 有 通道 平面 (包括 图 像 和 滤波 器 ) ， 每 一 个 通道 平面 上 的 图 像 和 滤波 器 做 二 维 卷 积 运算 ， 这 样 就 
形成 了 一 个 新 的 三 维 图 像 ， 把 新 三 维 图 像 的 通道 维 合并 (相同 通道 做 加 法 运算 ) ， 得 到 最 终 的 一 个 平面 结果 ， 即 结果 大 小 是 1 1 
h w。 再 将 这 个 算法 扩展 到 一 幅 图 像 和 多 个 滤波 器 上 ， 算 法 可 摘 述 为 : 遍历 所 有 滤波 器 ， 一 幅 图 像 和 一 个 滤波 器 做 四 维 卷 积 运算 
得 到 一 个 平面 ， 把 每 个 滤波 器 和 图 像 计算 四 维 卷 积 得 到 的 平面 到 在 一 起 ， 形 成 一 个 通道 数 等 于 滤波 器 数目 的 图 像 ， 即 1 c h w。 
再 将 算法 扩展 到 多 幅 图 像 和 多 个 滤波 器 ， 算 法 可 描述 为 : 遍历 所 有 图 像 ， 一 幅 图 像 和 多 个 滤波 器 一 起 做 四 维 卷 积 运算 ， 将 形成 的 
多 个 图 像 才 在 一 起 ， 即 n c h w。 其 中 mn 表示 图 像 数量 ，c 表 示 滤 波 器 数量 ，h 和 w 表 示 输 入 图 像 平 面 和 输入 滤波 器 平面 做 二 维 卷 
积 得 到 的 结果 大 小 。 


在 卷 积 运算 中 ， 每 幅 图 像 都 需要 和 所 有 的 滤波 器 计算 卷 积 ， 同 理 每 个 滤波 器 都 需要 和 所 有 图 像 计算 卷 积 ， 因 此 图 像 和 滤波 器 
都 有 重用 。 


目前 主流 的 计算 卷 积 的 方法 有 以 下 两 种 : 


1) 直接 计算 ， 此 算法 不 需要 额外 的 存储 空间 ， 需 要 从 头 编写 代码 。 主 流 的 卷 积 神经 网 络 软件 cuda-convnet 和 NVIDIA 推 出 
的 cudnn 库 都 使 用 了 此 方法 。 


2) 将 卷 积 运算 转化 成 矩阵 乘法 ， 利 用 现 有 的 库 以 获得 高 性 能 。 利 用 此 方法 很 容易 实现 卷 积 。 
本 节 主 要 基于 直接 计算 来 实现 卷 积 运算 。 


在 imagenet 卷 积 神经 网 络 中 ， 最 耗 时 的 几 个 卷 积 运算 中 ， 特 征 图 表示 的 图 像 大 小 为 128 384 13 13， 滤 波 器 大 小 为 256 384 
3 3， 填 充 为 1， 计 算 时 的 步 长 也 为 1， 即 计算 结果 大 小 为 128 256 13 13。 


卷 积 神经 网 络 训练 算法 包括 前 向 和 后 向 两 个 部 分 ， 后 向 计算 主要 用 于 训练 参数 ， 而 前 向 计算 用 于 推导 结果 。 考 虑 到 产品 代码 
中 只 会 包含 前 向 计算 ， 因 此 本 节 只 关注 前 向 优化 。 


5.5 多 GPU 并 行 优化 深度 学 习 软 件 Caffe 


Caffe 是 一 个 模块 化 、 快 速 、 易 于 使 用 的 、 基 于 卷 积 神经 网 络 的 深度 学 习 框架 ， 贾 扬 清 在 伯克利 读 PH.D 的 时 候 创 建 了 这 个 项 
目 ， 现 在 它 由 伯克利 视觉 和 学 习 中 心 (Berkeley Vision and Learning Center，BVLC) 及 社区 贡献 者 开发 。Caffe 现 在 基于 
BSD 2 许可 证 发 布 。 


用 户 使 用 Caffe 时 ， 无 需要 编写 代码 ， 只 需 使 用 配置 文件 指定 训练 参数 即 可 。Caffe 目 前 支持 CPU 和 GPU 运算 ， 只 需要 在 配 


置 文件 中 或 命令 行 上 指定 一 个 标志 就 可 以 在 使 用 CPU 计算 和 使 用 GPU 计算 之 间 切 换 。 


关于 卷 积 神经 网 络 的 内 容 ， 本 章 就 不 述说 了 ， 感 兴趣 的 读者 可 参考 相关 书目 。 


5.6 本章 小 结 


本 章 介绍 了 机 器 学 习 和 深度 学 习 相 关 算 法 在 X86、ARM 和 GPU 上 的 计算 性 能 优化 ， 内 容 涉及 传统 的 Kmeans、KNN 和 二 维 
卷 积 算法 的 性 能 优化 ， 及 最 新 的 基于 卷 积 神经 网 络 的 深度 学 习 算 法 的 性 能 优化 ， 如 四 维 卷 积 。 


在 本 章 的 最 后 一 节 ， 笔 者 介绍 了 著名 的 深度 学 习 应 用 Caffe 的 主要 计算 流程 ， 并 且 探 讨 了 如 何 通 过 MPI 在 多 GPU 上 并 行 化 
Caffe。 


